文本分类在许多真实世界的情况下可能很有用,为最终用户节省了很多时间。但是,构建自定义分类器通常需要编码技能和ML知识,这对许多潜在用户构成了重大障碍。为了提高此障碍,我们介绍了标签侦探,这是一种免费的开源系统,用于标记和创建文本分类器。该系统对于(a)是一个无代码系统是独一无二的分类器在几个小时内,(c)开发用于开发人员进行配置和扩展。通过开放采购标签侦探,我们希望建立一个用户和开发人员社区,以扩大NLP模型的利用率。
translated by 谷歌翻译
近年来,预制语言模型彻底改变了NLP世界,同时在各种下游任务中实现了最先进的性能。但是,在许多情况下,当标记数据稀缺时,这些模型不会表现良好,并且预计模型将在零或几秒钟内执行。最近,有几项工作表明,与下游任务更好地对准的预先预测或执行第二阶段,可以导致改进的结果,尤其是在稀缺数据设置中。在此,我们建议利用携带的情绪话语标记来产生大规模的弱标记数据,这又可以用于适应语言模型进行情感分析。广泛的实验结果显示了我们在各种基准数据集中的方法的价值,包括金融域。在https://github.com/ibm/tslm-discourse-markers上提供代码,模型和数据。
translated by 谷歌翻译
在典型的客户服务聊天方案中,客户联系支持中心以便帮助或提高投诉,人类代理商试图解决这些问题。在大多数情况下,在谈话结束时,要求代理人写一份简短的总结强调问题和建议的解决方案,通常是为了使其他可能需要处理同一客户或问题的其他代理商的利益。本文的目标是推进此任务的自动化。我们介绍了第一个大规模,高质量的客户服务对话框摘要数据集,接近6500人的注释摘要。数据基于现实世界的客户支持对话框,包括提取和抽象摘要。我们还介绍了一种特定于对话框的新无监督的提取摘要方法。
translated by 谷歌翻译
Choosing which properties of the data to use as input to multivariate decision algorithms -- a.k.a. feature selection -- is an important step in solving any problem with machine learning. While there is a clear trend towards training sophisticated deep networks on large numbers of relatively unprocessed inputs (so-called automated feature engineering), for many tasks in physics, sets of theoretically well-motivated and well-understood features already exist. Working with such features can bring many benefits, including greater interpretability, reduced training and run time, and enhanced stability and robustness. We develop a new feature selection method based on Distance Correlation (DisCo), and demonstrate its effectiveness on the tasks of boosted top- and $W$-tagging. Using our method to select features from a set of over 7,000 energy flow polynomials, we show that we can match the performance of much deeper architectures, by using only ten features and two orders-of-magnitude fewer model parameters.
translated by 谷歌翻译
由于肿胀和病态增大,人体组织中组织的异常发育被称为肿瘤。它们主要被归类为良性和恶性。大脑中的肿瘤可能是致命的,因为它可能是癌性的,因此可以以附近的健康细胞为食并不断增加大小。这可能会影响大脑中软组织,神经细胞和小血管。因此,有必要以最高的精度在早期阶段检测和分类。脑肿瘤的大小和位置不同,这使得很难理解其性质。由于附近的健康细胞与肿瘤之间的相似性,即使使用先进的MRI(磁共振成像)技术,脑肿瘤的检测和分类过程也可能是一项繁重的任务。在本文中,我们使用Keras和Tensorflow来实施最先进的卷积神经网络(CNN)架构,例如EdgitionNetB0,Resnet50,Xpection,MobilenetV2和VGG16,使用转移学习来检测和分类三种类型的大脑肿瘤,即神经胶质瘤,脑膜瘤和垂体。我们使用的数据集由3264个2-D磁共振图像和4个类组成。由于数据集的尺寸较小,因此使用各种数据增强技术来增加数据集的大小。我们提出的方法不仅包括数据增强,而且还包括各种图像降级技术,头骨剥离,裁剪和偏置校正。在我们提出的工作效率NETB0体系结构中,最佳准确性为97.61%。本文的目的是区分正常和异常像素,并以更好的准确性对它们进行分类。
translated by 谷歌翻译